智能论文笔记

Unifying Short and Long-Term Tracking with Graph Hierarchies

Orcun Cetintas , Guillem Brasó , Laura Leal-Taixé

分类：计算机视觉

2022-12-06

Tracking objects over long videos effectively means solving a spectrum of problems, from short-term association for un-occluded objects to long-term association for objects that are occluded and then reappear in the scene. Methods tackling these two tasks are often disjoint and crafted for specific scenarios, and top-performing approaches are often a mix of techniques, which yields engineering-heavy solutions that lack generality. In this work, we question the need for hybrid approaches and introduce SUSHI, a unified and scalable multi-object tracker. Our approach processes long clips by splitting them into a hierarchy of subclips, which enables high scalability. We leverage graph neural networks to process all levels of the hierarchy, which makes our model unified across temporal scales and highly general. As a result, we obtain significant improvements over state-of-the-art on four diverse datasets. Our code and models will be made available.

translated by 谷歌翻译

PolarMOT: How Far Can Geometric Relations Take Us in 3D Multi-Object Tracking?

Aleksandr Kim , Guillem Brasó , Aljoša Ošep , Laura Leal-Taixé

分类：计算机视觉 | 机器学习

2022-08-03

大多数（3D）多对象跟踪方法依赖于数据关联的外观提示。相比之下，我们研究了仅通过编码3D空间中对象之间的几何关系作为数据驱动数据关联的线索，我们才能达到多远。我们将3D检测编码为图中的节点，其中对象之间的空间和时间成对关系是通过图边缘上的局部极性坐标编码的。这种表示使我们的几何关系不变到全球变换和平滑的轨迹变化，尤其是在非全面运动下。这使我们的图形神经网络可以学会有效地编码时间和空间交互，并充分利用上下文和运动提示，以通过将数据关联作为边缘分类来获得最终场景解释。我们在Nuscenes数据集上建立了一个新的最先进的方法，更重要的是，我们的方法在不同位置（波士顿，新加坡，Karlsruhe）和数据集（Nuscenes和Kitti）中跨越了我们的方法。

translated by 谷歌翻译

DeVIS: Making Deformable Transformers Work for Video Instance Segmentation

Adrià Caelles , Tim Meinhardt , Guillem Brasó , Laura Leal-Taixé

分类：计算机视觉 | 机器学习 | 机器人

2022-07-22

视频实例分割（VIS）在视频序列中共同处理多对象检测，跟踪和分割。过去，VIS方法反映了这些子任务在其建筑设计中的碎片化，因此在关节溶液上错过了这些子任务。变形金刚最近允许将整个VIS任务作为单个设定预测问题进行。然而，现有基于变压器的方法的二次复杂性需要较长的训练时间，高内存需求和处理低音尺度特征地图的处理。可变形的注意力提供了更有效的替代方案，但尚未探索其对时间域或分段任务的应用。在这项工作中，我们提出了可变形的Vis（Devis），这是一种利用可变形变压器的效率和性能的VIS方法。为了在多个框架上共同考虑所有VIS子任务，我们使用实例感知对象查询表示时间尺度可变形。我们进一步介绍了带有多尺度功能的新图像和视频实例蒙版头，并通过多提示剪辑跟踪执行近乎对方的视频处理。 Devis减少了内存和训练时间要求，并在YouTube-Vis 2021以及具有挑战性的OVIS数据集上实现了最先进的结果。代码可在https://github.com/acaelles97/devis上找到。

translated by 谷歌翻译

LMI-based Variable Impedance Controller design from User Demonstrations and Preferences

Alberto San-Miguel , Guillem Alenyà , Vicenç Puig

分类：机器人

2022-09-21

在本文中，我们介绍了一种新的离线方法，以使用演示（LFD）范式学习，在考虑用户对任务的直觉的同时，使用示范（LFD）范式学习，实现稳定性和性能约束，以找到可变阻抗控制的合适参数。考虑到从人类示范获得的合规性概况，给出了VIC的线性参数变化（LPV），它允许陈述设计问题，包括稳定性和性能约束为线性矩阵不平等（LMIS）。因此，使用解决方案搜索方法，我们根据用户偏好在任务行为上找到最佳解决方案。通过比较获得的控制器的执行与在二维轨迹跟踪任务中不同用户首选项集的设计的解决方案来验证设计问题。将滑轮循环任务作为案例研究提出，以评估可变阻抗控制器的性能，并使用用户偏好机制对恒定的稳定性控制器进行恒定的敏捷性和倾斜度。所有实验均使用7-DOF Kinova Gen3操纵器进行。

translated by 谷歌翻译

Multi-Object Tracking and Segmentation via Neural Message Passing

Guillem Braso , Orcun Cetintas , Laura Leal-Taixe

分类：计算机视觉

2022-07-15

图提供了一种自然的方式来制定多个对象跟踪（MOT）和多个对象跟踪和分割（MOTS），逐个检测范式中。但是，他们还引入了学习方法的主要挑战，因为定义可以在这种结构化领域运行的模型并不是微不足道的。在这项工作中，我们利用MOT的经典网络流程公式来定义基于消息传递网络（MPN）的完全微分框架。通过直接在图形域上操作，我们的方法可以在整个检测和利用上下文特征上全球推理。然后，它共同预测了数据关联问题的最终解决方案和场景中所有对象的分割掩码，同时利用这两个任务之间的协同作用。我们在几个公开可用的数据集中获得跟踪和细分的最新结果。我们的代码可在github.com/ocetintas/mpntrackseg上找到。

translated by 谷歌翻译

Simple Cues Lead to a Strong Multi-Object Tracker

Jenny Seidenschwarz , Guillem Braso , Ismail Elezi , Laura Leal-Taixe

分类：计算机视觉

2022-06-09

长期以来，多对象跟踪中最常见的范式是逐个检测（TBD），首先检测到对象，然后通过视频帧关联。对于关联，大多数模型用于运动和外观提示。尽管仍然依靠这些提示，但最新的方法（例如，注意力）表明对训练数据和整体复杂框架的需求不断增加。我们声称1）如果采用某些关键的设计选择，可以从很少的培训数据中获得强大的提示，2）鉴于这些强大的提示，标准的基于匈牙利匹配的关联足以获得令人印象深刻的结果。我们的主要见解是确定允许标准重新识别网络在基于外观的跟踪方面表现出色的关键组件。我们广泛地分析了其故障案例，并表明我们的外观特征与简单运动模型的结合导致了强大的跟踪结果。我们的模型在MOT17和MOT20数据集上实现了最新的性能，在IDF1中最多可超过5.4pp，在IDF1和HOTA中的4.4pp优于先前的最新跟踪器。我们将在本文接受后发布代码和模型。

translated by 谷歌翻译

Learned Vertex Descent: A New Direction for 3D Human Model Fitting

Enric Corona , Gerard Pons-Moll , Guillem Alenyà , Francesc Moreno-Noguer

分类：计算机视觉

2022-05-12

我们提出了一种基于优化的新型范式，用于在图像和扫描上拟合3D人类模型。与直接回归输入图像中低维统计体模型（例如SMPL）的参数的现有方法相反，我们训练了每个vertex神经场网络的集合。该网络以分布式的方式预测基于当前顶点投影处提取的神经特征的顶点下降方向。在推断时，我们在梯度降低的优化管道中采用该网络，称为LVD，直到其收敛性为止，即使将所有顶点初始化为单个点，通常也会以一秒钟的分数出现。一项详尽的评估表明，我们的方法能够捕获具有截然不同的身体形状的穿着的人体，与最先进的人相比取得了重大改进。 LVD也适用于人类和手的3D模型配合，为此，我们以更简单，更快的方法对SOTA显示出显着改善。

translated by 谷歌翻译

Deep Learning on Multimodal Sensor Data at the Wireless Edge for Vehicular Network

Batool Salehi , Guillem Reus-Muns , Debashri Roy , Zifeng Wang , Tong Jian , Jennifer Dy , Stratis Ioannidis , Kaushik Chowdhury

分类：机器学习

2022-01-12

在车辆场景中的毫米波链路的光束选择是一个具有挑战性的问题，因为所有候选光束对之间的详尽搜索都不能在短接触时间内被确认完成。我们通过利用像LIDAR，相机图像和GPS等传感器收集的多模级数据来解决这一问题。我们提出了可以在本地以及移动边缘计算中心（MEC）本地执行的个人方式和分布式融合的深度学习（F-DL）架构，并研究相关权衡。我们还制定和解决优化问题，以考虑实际的光束搜索，MEC处理和传感器到MEC数据传送延迟开销，用于确定上述F-DL架构的输出尺寸。在公开的合成和本土现实世界数据集上进行的广泛评估结果分别在古典RF光束上释放出95％和96％的束选择速度提高。在预测前10个最佳光束对中，F-DL还优于最先进的技术20-22％。

translated by 谷歌翻译

Deep Learning Methods for Daily Wildfire Danger Forecasting

Ioannis Prapas , Spyros Kondylatos , Ioannis Papoutsis , Gustau Camps-Valls , Michele Ronco , Miguel-Ángel Fernández-Torres , Maria Piles Guillem , Nuno Carvalhais

分类：机器学习 | 人工智能 | 计算机视觉

2021-11-04

野火预测对于减少灾害风险和环境可持续性至关重要。我们将每日火灾危险预测作为机器学习任务，使用过去十年来预测下一天的火灾危险。为此，我们收集，预先处理和协调开放式DataCube，其中包括一组协变量，共同影响火灾发生和传播，例如天气条件，卫星衍生的产品，与人类活动相关的地形特征和变量。我们实施各种深度学习（DL）模型，以捕获空间，时间或时空上下文，并将它们与随机林（RF）基线进行比较。我们发现空间或时间上下文足以超越RF，而利用时空上下文的Convlstm在接收器的操作特性为0.926的接收器下的测试区域最佳地执行。我们基于DL的概念证明提供了全国范围的日常火灾危险地图，其空间分辨率高于现有的运营解决方案。

translated by 谷歌翻译

Household Cloth Object Set: Fostering Benchmarking in Deformable Object Manipulation

Irene Garcia-Camacho , Júlia Borràs , Berk Calli , Adam Norton , Guillem Alenyà

分类：机器人

2021-11-02

机器人操纵的基准是机器人研究中的开放问题之一。在过去十年中，在该领域实现了进展的一个重要因素是在不同研究组中共享的共同对象集的存在。然而，当涉及具有独特特殊性和挑战的布料物体时，现有的对象集非常有限。本文是朝向从机器人布操纵界的研究组中分发的布对象设置的第一步。我们展示了一组家庭布料对象和相关任务，有助于暴露与收集这种物体集合的挑战，并提出了一种向布操控任务中的共同基准设计的路线图，有意将理由设置为未来的辩论在社区中，有必要促进用于操纵布料物体的基准。还将一些RGB-D和对象扫描作为相关配置中的对象的示例收集。有关布料集的更多细节在http://www.iri.upc.edu/groups/perception/clothobjectset/houble uholdclothset.html中共享。

translated by 谷歌翻译